#optimización adamw

Supervisión densa y actualizaciones dispersas en OPD

Analizamos la estructura de actualizaciones en OPD: son pequeñas, dispersas y aprovechan subredes, revelando claves para optimización post-training.

2026-06-15 · 2 min

PC Layer: Preacondicionamiento de Pesos Polinomial para Mejorar el Pre-entrenamiento de LLMs

La capa PC estabiliza el espectro de valores singulares en LLMs, mejorando convergencia sin overhead de inferencia. Optimiza tu pre-entrenamiento.

2026-06-05 · 2 min

Equivarianza exacta otorga generalización zero-shot

Descubre cómo la equivarianza exacta entrenada permite generalización zero-shot a través de grupos de simetría, reduciendo errores y mejorando la eficiencia en modelos de IA.

2026-06-03 · 2 min